Inférer des Objets Sémantiques du Web Structuré

نویسندگان

  • Marilena OITA
  • Julien MASANÈS
  • Marilena Oita
چکیده

This thesis focuses on the extraction and analysis of Web data objects, investigated from different points of view: temporal, structural, semantic. We first survey different strategies and best practices for deriving temporal aspects of Web pages, together with a more in-depth study on Web feeds for this particular purpose, and other statistics. Next, in the context of dynamically-generated Web pages by content management systems, we present two keyword-based techniques that perform article extraction from such pages. Keywords, either automatically acquired through a Tf−Idf analysis, or extracted from Web feeds, guide the process of object identification, either at the level of a single Web page (SIGFEED), or across different pages sharing the same template (FOREST). We finally present, in the context of the deep Web, a generic framework that aims at discovering the semantic model of a Web object (here, data record) by, first, using FOREST for the extraction of objects, and second, representing the implicit rdf:type similarities between the object attributes and the entity of the form as relationships that, together with the instances extracted from the objects, form a labeled graph. This graph is further aligned to an ontology like YAGO for the discovery of the unknown types and relations.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Interopérabilité sémantique libérale pour les services et les objets

Résumé. Le Web des données promeut l’utilisation de RDF comme modèle pour les données structurées sur le Web. Cependant, la majorité des services Web consomment et exposent principalement du CSV, JSON, ou XML, des format non-RDF. Il est peu probable que tous ces services se convertissent un jour aux formats RDF existants. Ceci est d’autant plus vrai dans le contexte du Web des objets, puisque l...

متن کامل

ILOG : vingt ans dans les objets, rétro et perspectives

De nombreux fronts se sont ouverts, souvent complémentaires. Front de la programmation : des objets lispiens tels que LeLisp et son inévitable MicroCeyx à Java et C#. Front de la modélisation et du raisonnement : de la première génération de systèmes centrés objets tels Kool, Smeci, FRL ou Sherpa aux règles métiers et aux modèles ontologiques tels que promus par le W3C. Front du Génie Logiciel ...

متن کامل

Rôle d'une base de connaissance dans SemIoTics, un système autonome contrôlant un appartement connecté

L’Internet des Objets représente une réalité de plus en plus concrète au fur et à mesure que se déploient de larges réseaux d’objets connectés. Ceux-ci ouvrent de larges perspectives d’applications, mais rencontrent des difficultés en terme d’interopérabilité, de configuration ou de passage à l’échelle. Ces problématiques peuvent être traitées par le recours aux principes du web de données liée...

متن کامل

Architecture et Outils pour la Recherche d'Evénements dans les Séquences Vidéo

RÉSUMÉ. Le problème abordé ici concerne l’indexation en ligne de données multimédia par la recherche d’extraits pertinents qui peuvent aussi être des réponses à des requêtes spécifiques. Nos travaux se focalisent sur l’analyse de séquences vidéo afin d’y détecter des événements prédéfinis. La recherche de ces événements étant contextuelle, nous proposons une architecture et des outils générique...

متن کامل

Vers un modèle du raisonnement dans les langages à objets

Résumé Ce papier est une proposition de modèle du raisonnement dans les langages hybrides, intégrant un langage de programmation par objets avec des règles de production. Nous proposons de différencier entre deux catégories d'objets, les objet du monde perçu et ceux du monde conçu. Le raisonnement est alors considéré comme un processus qui crée ou modifie le monde conçu à partir d'observations ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013